An optimal delivery of arguments is key to persuasion in any debate, both for humans and for AI systems. This requires the use of clear and fluent claims relevant to the given debate. Prior work has studied the automatic assessment of argument quality extensively. Yet, no approach actually improves the quality so far. Our work is the first step towards filling this gap. We propose the task of claim optimization: to rewrite argumentative claims to optimize their delivery. As an initial approach, we first generate a candidate set of optimized claims using a sequence-to-sequence model, such as BART, while taking into account contextual information. Our key idea is then to rerank generated candidates with respect to different quality metrics to find the best optimization. In automatic and human evaluation, we outperform different reranking baselines on an English corpus, improving 60% of all claims (worsening 16% only). Follow-up analyses reveal that, beyond copy editing, our approach often specifies claims with details, whereas it adds less evidence than humans do. Moreover, its capabilities generalize well to other domains, such as instructional texts.
translated by 谷歌翻译
这项贡献总结了UNIMIB团队参加TREC 2021临床试验轨道的参与。我们已经研究了不同查询表示的影响,并结合了几个检索模型对检索性能的影响。首先,我们已经实施了一种神经重新排列方法来研究密集文本表示的有效性。此外,我们还研究了一种新的决策理论模型以进行相关性估计的有效性。最后,将上述两个相关模型与标准检索方法进行了比较。特别是,我们将关键字提取方法与基于BM25模型的标准检索过程和一个决策理论相关模型相结合,该模型利用了此特定搜索任务的特征。获得的结果表明,与传统或决策理论相关性模型相结合时,提出的关键字提取方法在TREC的中位数NDCG@10度量上改善了84%的查询。此外,关于RPEC@10,使用的决策理论模型可改善报告TREC的中位数价值的85%。
translated by 谷歌翻译
开发对手挑战NLP系统的方法是提高模型性能和解释性的有前途的途径。在这里,我们描述了团队在第一个动态对抗数据收集(DADC)的任务1中“长角牛”的方法,该研讨会要求团队手动欺骗一个模型,以挖掘出挖掘的问题回答任务。我们的团队首先结束,模型错误率为62%。我们主张采用系统的,语言知情的方法来制定对抗性问题,并描述了试点实验的结果以及我们的官方提交。
translated by 谷歌翻译
机器学习分类器本质上是概率的,因此不可避免地涉及不确定性。预测特定输入正确的概率称为不确定性(或置信度)估计,对于风险管理至关重要。事后模型校准可以改善模型的不确定性估计,而无需重新培训,而无需更改模型。我们的工作为不确定性估计提出了一种基于几何的方法。粗略地说,我们使用现有训练输入的当前输入的几何距离作为估计不确定性的信号,然后使用标准的事后校准技术校准该信号(而不是模型的估计)。我们表明,通过广泛评估多个数据集和模型,我们的方法比最近提出的方法产生更好的不确定性估计。此外,我们还证明了在接近实时应用程序中执行方法的可能性。我们的代码可在我们的github https://github.com/nosleepdeveloper/geometric-calibrator上找到。
translated by 谷歌翻译
知识表示中的一个突出问题是如何应对域名知识的本体的隐性后果来回回答查询。虽然这个问题在描述逻辑本体的领域中已被广泛研究,但在模糊或不精确的知识的背景下,令人惊讶地忽略了忽视,特别是从数学模糊逻辑的角度来看。在本文中,我们研究了应答联合查询和阈值查询的问题。模糊DL-Lite中的本体。具体而言,我们通过重写方法展示阈值查询应答W.r.t.一致的本体中仍保持在数据复杂性的$ AC_0 $中,但该联合查询应答高度依赖于所选三角标准,这对底层语义产生了影响。对于IDEMPodent G \“Odel T-Norm,我们提供了一种基于古典案例的减少的有效方法。本文在理论和实践中正在考虑和逻辑编程(TPLP)的实践。
translated by 谷歌翻译
报纸报告提供有关关于特定政策领域的公开辩论的丰富信息来源,该领域可以作为政治科学探究的依据。这种辩论通常由关键事件引发,这引起了公众的关注和煽动政治行动者的反应:危机引发了辩论。但是,由于可靠的注释和建模的挑战,很少有很多具有高质量注释的大规模数据集。本文介绍了Debatenet2.0,它在2015年期间追溯了德国优质报纸Taz欧洲难民危机的政治话语。我们的注释的核心单位是政治索赔(请求在政策领域内采取的具体行动)和制定它们的演员(政治家,派对等)。本文的贡献是双重的。首先,我们与其同伴R包,Mardyr,通过与报纸上的政策辩论的诠释的实际和概念问题引导读者,将DebateneT2.0与其伴侣R封装联系起来。其次,我们概述并将话语网络分析(DNA)应用于Debatenet2.0,比较了对“难民危机”的政策辩论的两个至关重要的时刻:4月/ 5月的地中海的移民通量和沿巴尔干路线的迁移渠道9月/ 10月。除了释放的资源和案例研究外,我们的贡献也是方法论:我们通过报纸文章向话语网络的步骤讨论读者,表明德国迁移辩论不仅仅是一个话语网络,而是多个话语,取决于兴趣主题(政治行动者,政策领域,时间跨度)。
translated by 谷歌翻译